监督微调 SFT 快讯列表

快讯列表

关于监督微调 SFT 的快讯列表

时间	详情
2025-10-24 15:35	Karpathy发布 SpellingBee 教程：用 SFT 与 RL 为 nanochat d32 增强字母计数能力，或引发 AI 代币关注据 @karpathy 介绍，他发布了完整教程，通过合成任务 SpellingBee 生成用户与助手示例，对 nanochat d32 进行中期训练与监督微调，并可选用强化学习提升鲁棒性，从而学会统计单词中某字母的次数，例如 strawberry 中的 r，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。方法要点包括：多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤（标准化引号、拼写拆分、显式计数迭代），并同时鼓励手动推理与 Python 工具两条解题路径，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。Karpathy 指出，由于 nanochat d32 体量小，需要在数据集中过采样该能力以促成学习，并可通过模拟错误样例或强化学习进一步增强稳定性，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。对交易者而言，开源小模型训练方法的进展曾与 AI 概念关注度提升相伴，AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现，Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨，来源：Kaiko Research 2024 周报；英伟达 2024 年财报资料。本文并非代币或产品发布，而是面向小模型能力注入的技术指南与数据示例，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。来源
2025-10-06 21:27	DeepLearning.AI 推出 LLM 后训练课程：SFT、DPO、在线强化学习三大核心方法助力模型定制据 DeepLearning.AI 称，其 Post-training of LLMs 课程教授如何使用监督微调（SFT）、偏好直接优化（DPO）和在线强化学习（RL）来定制预训练大模型（来源：DeepLearning.AI 于 X 平台，2025年10月6日）。据 DeepLearning.AI 称，课程讲解何时采用各方法、如何整理训练数据，并在代码层面实现以有效塑造模型行为（来源：DeepLearning.AI 于 X 平台，2025年10月6日）。据 DeepLearning.AI 称，可通过链接 hubs.la/Q03MrTZS0 报名（来源：DeepLearning.AI 于 X 平台，2025年10月6日）。来源

时间

详情

2025-10-24
15:35

Karpathy发布 SpellingBee 教程：用 SFT 与 RL 为 nanochat d32 增强字母计数能力，或引发 AI 代币关注

据 @karpathy 介绍，他发布了完整教程，通过合成任务 SpellingBee 生成用户与助手示例，对 nanochat d32 进行中期训练与监督微调，并可选用强化学习提升鲁棒性，从而学会统计单词中某字母的次数，例如 strawberry 中的 r，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。方法要点包括：多样化用户提问、严格处理分词与空白、将推理拆分为多 token 步骤（标准化引号、拼写拆分、显式计数迭代），并同时鼓励手动推理与 Python 工具两条解题路径，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。Karpathy 指出，由于 nanochat d32 体量小，需要在数据集中过采样该能力以促成学习，并可通过模拟错误样例或强化学习进一步增强稳定性，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。对交易者而言，开源小模型训练方法的进展曾与 AI 概念关注度提升相伴，AI 代币如 RNDR、FET、AGIX 在英伟达等重大 AI 催化附近有过阶段性联动表现，Kaiko 在 2024 年报告过 AI 代币在英伟达财报期间的上涨，来源：Kaiko Research 2024 周报；英伟达 2024 年财报资料。本文并非代币或产品发布，而是面向小模型能力注入的技术指南与数据示例，来源：Karpathy 于 2025-10-24 的 X 帖子；GitHub nanochat 讨论 164。

来源

2025-10-06
21:27

DeepLearning.AI 推出 LLM 后训练课程：SFT、DPO、在线强化学习三大核心方法助力模型定制

据 DeepLearning.AI 称，其 Post-training of LLMs 课程教授如何使用监督微调（SFT）、偏好直接优化（DPO）和在线强化学习（RL）来定制预训练大模型（来源：DeepLearning.AI 于 X 平台，2025年10月6日）。据 DeepLearning.AI 称，课程讲解何时采用各方法、如何整理训练数据，并在代码层面实现以有效塑造模型行为（来源：DeepLearning.AI 于 X 平台，2025年10月6日）。据 DeepLearning.AI 称，可通过链接 hubs.la/Q03MrTZS0 报名（来源：DeepLearning.AI 于 X 平台，2025年10月6日）。

来源

关于 监督微调 SFT 的快讯列表

关于监督微调 SFT 的快讯列表